FILTER MODE ACTIVE

#FP32 логиты

Найдено записей: 1

#FP32 логиты18.10.2025

Сигмоидное масштабирование делает RL пост-тренинг предсказуемым для LLM

'Новое исследование показывает, что прогресс RL пост-тренинга следует сигмоидным кривым, и предлагает ScaleRL — рецепт, подтверждённый до 100k GPU-часов для предсказуемого масштабирования LLM.'